Постановка задачи

По 1260 опрошенным имеются следующие данные:

Требуется оценить влияние внешней привлекательности на уровень заработка с учётом всех остальных факторов.

Попарные диаграммы рассеяния всех количественных признаков:

Решение

Предобработка

Посмотрим на распределение оценок привлекательности:

В группах looks=1 и looks=5 слишком мало наблюдений. Превратим признак looks в категориальный и закодируем с помощью фиктивных переменных:

looks aboveavg belowavg
<3 1 0
3 0 0
>3 0 1

Распределение значений отклика:

  1. Один человек в выборке получает 77.72$ в час, остальные — меньше 45$; удалим этого человека.

  2. \(\frac{\max y}{\min y}=\) 40.8529412 \(>10\), поэтому найдём преобразование отклика методом Бокса-Кокса:

Возьмём \(\lambda=0\), то есть, будем строить регрессию логарифма отклика.

Модель 1

Построим линейную модель по всем признакам.

Её остатки:

Критерий p
Шапиро-Уилка 8.519878910^{-7}
Уилкоксона 0.9416491
Бройша-Пагана 7.551136710^{-5}

ненормальны, поэтому для проверки несмещённости используем критерий знаковых рангов Уилкоксона, и гетероскедастичны, поэтому оценку значимости признаков будем делать с дисперсиями Уайта; также будем делать поправку на множественность.

## 
## Call:
## lm(formula = logwage ~ ., data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.3712 -0.2769  0.0006  0.2750  1.9798 
## 
## Coefficients:
##               Estimate Std. Error    t value   Pr(>|t|) Adjusted p-value
## (Intercept)  4.515e-01  9.531e-02  4.737e+00  2.415e-06               NA
## exper        1.381e-02  1.196e-03  1.155e+01  2.268e-29            0.000
## union        1.785e-01  2.996e-02  5.957e+00  3.331e-09            0.000
## goodhlth     7.850e-02  5.341e-02  1.470e+00  1.419e-01            0.896
## black       -9.888e-02  5.168e-02 -1.913e+00  5.594e-02            0.419
## female      -3.938e-01  3.105e-02 -1.268e+01  9.204e-35            0.000
## married      4.253e-02  3.076e-02  1.383e+00  1.670e-01            0.807
## service     -1.505e-01  3.233e-02 -4.656e+00  3.562e-06            0.000
## educ         7.994e-02  5.482e-03  1.458e+01  1.386e-44            0.000
## aboveavg    -4.147e-03  3.004e-02 -1.380e-01  8.902e-01            1.000
## belowavg    -1.305e-01  4.145e-02 -3.148e+00  1.682e-03            0.011
## 
## Residual standard error: 0.465 on 1248 degrees of freedom
## Multiple R-squared:  0.3835, Adjusted R-squared:  0.3785 
## F-statistic: 77.63 on 10 and 1248 DF,  p-value: < 2.2e-16

Визуальный анализ остатков:

В остатках наблюдается квадратичная зависимость от опыта работы.

Модель 2

Добавим в модель 1 квадрат опыта работы.

Её остатки:

Критерий p
Шапиро-Уилка 1.407155410^{-7}
Уилкоксона 0.9618315
Бройша-Пагана 4.192584410^{-6}

ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:

## 
## Call:
## lm(formula = logwage ~ . + I(exper^2), data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.41092 -0.28236  0.01577  0.26985  1.90502 
## 
## Coefficients:
##               Estimate Std. Error    t value   Pr(>|t|) Adjusted p-value
## (Intercept)  3.424e-01  9.541e-02  3.588e+00  3.457e-04               NA
## exper        4.038e-02  4.346e-03  9.290e+00  6.637e-20            0.000
## union        1.710e-01  2.953e-02  5.793e+00  8.733e-09            0.000
## goodhlth     7.159e-02  5.259e-02  1.361e+00  1.737e-01            0.947
## black       -8.310e-02  5.095e-02 -1.631e+00  1.031e-01            0.675
## female      -3.936e-01  3.057e-02 -1.287e+01  1.051e-35            0.000
## married      1.010e-02  3.071e-02  3.290e-01  7.422e-01            1.000
## service     -1.599e-01  3.186e-02 -5.018e+00  5.970e-07            0.000
## educ         7.580e-02  5.437e-03  1.394e+01  3.672e-41            0.000
## aboveavg    -2.487e-03  2.958e-02 -8.407e-02  9.330e-01            1.000
## belowavg    -1.352e-01  4.082e-02 -3.313e+00  9.492e-04            0.007
## I(exper^2)  -6.118e-04  9.634e-05 -6.351e+00  2.996e-10            0.000
## 
## Residual standard error: 0.4578 on 1247 degrees of freedom
## Multiple R-squared:  0.4028, Adjusted R-squared:  0.3975 
## F-statistic: 76.46 on 11 and 1247 DF,  p-value: < 2.2e-16

Незначимые признаки: здоровье, цвет кожи, семейное положение, привлекательность выше среднего. Прежде, чем удалять лишние признаки, проверим, не входят ли они в значимые попарные взаимодействия:

## Single term additions
## 
## Model:
## logwage ~ exper + union + goodhlth + black + female + married + 
##     service + educ + aboveavg + belowavg + I(exper^2)
##                     Df Sum of Sq    RSS     AIC F value    Pr(>F)    
## <none>                           261.40 -1955.2                      
## exper:union          1   0.44869 260.95 -1955.3  2.1424 0.1435298    
## exper:goodhlth       1   0.00045 261.40 -1953.2  0.0022 0.9628754    
## exper:black          1   0.12543 261.28 -1953.8  0.5982 0.4394187    
## exper:female         1   2.38436 259.02 -1964.7 11.4699 0.0007294 ***
## exper:married        1   1.12955 260.27 -1958.6  5.4075 0.0202106 *  
## exper:service        1   0.93793 260.46 -1957.7  4.4869 0.0343538 *  
## exper:educ           1   0.00193 261.40 -1953.2  0.0092 0.9235768    
## exper:aboveavg       1   0.01638 261.38 -1953.2  0.0781 0.7799812    
## exper:belowavg       1   0.01523 261.39 -1953.2  0.0726 0.7876568    
## exper:I(exper^2)     1   0.44697 260.95 -1955.3  2.1342 0.1443004    
## union:goodhlth       1   0.17345 261.23 -1954.0  0.8273 0.3632270    
## union:black          1   0.00442 261.40 -1953.2  0.0211 0.8846047    
## union:female         1   0.36002 261.04 -1954.9  1.7184 0.1901352    
## union:married        1   0.04145 261.36 -1953.4  0.1976 0.6567382    
## union:service        1   0.00679 261.39 -1953.2  0.0323 0.8573023    
## union:educ           1   0.20255 261.20 -1954.1  0.9662 0.3258127    
## union:aboveavg       1   0.01096 261.39 -1953.2  0.0522 0.8192470    
## union:belowavg       1   0.12107 261.28 -1953.8  0.5774 0.4474952    
## union:I(exper^2)     1   0.69193 260.71 -1956.5  3.3069 0.0692283 .  
## goodhlth:black       1   0.78641 260.62 -1957.0  3.7598 0.0527241 .  
## goodhlth:female      1   0.62287 260.78 -1956.2  2.9760 0.0847533 .  
## goodhlth:married     1   0.68083 260.72 -1956.5  3.2537 0.0715036 .  
## goodhlth:service     1   0.17097 261.23 -1954.0  0.8155 0.3666825    
## goodhlth:educ        1   0.22292 261.18 -1954.2  1.0635 0.3026250    
## goodhlth:aboveavg    1   0.44717 260.95 -1955.3  2.1351 0.1442103    
## goodhlth:belowavg    1   0.24594 261.16 -1954.3  1.1734 0.2789103    
## goodhlth:I(exper^2)  1   0.04039 261.36 -1953.4  0.1926 0.6608580    
## black:female         1   2.52500 258.88 -1965.4 12.1531 0.0005071 ***
## black:married        1   0.28758 261.11 -1954.5  1.3723 0.2416410    
## black:service        1   0.26454 261.14 -1954.4  1.2622 0.2614438    
## black:educ           1   0.09938 261.30 -1953.6  0.4739 0.4913352    
## black:aboveavg       1   0.02301 261.38 -1953.3  0.1097 0.7405774    
## black:belowavg       1   0.19482 261.21 -1954.1  0.9293 0.3352298    
## black:I(exper^2)     1   0.01649 261.38 -1953.2  0.0786 0.7792565    
## female:married       1   2.56500 258.84 -1965.6 12.3475 0.0004574 ***
## female:service       1   0.64607 260.76 -1956.3  3.0872 0.0791555 .  
## female:educ          1   0.63386 260.77 -1956.2  3.0287 0.0820500 .  
## female:aboveavg      1   0.41335 260.99 -1955.2  1.9734 0.1603367    
## female:belowavg      1   0.00222 261.40 -1953.2  0.0106 0.9180522    
## female:I(exper^2)    1   1.65055 259.75 -1961.1  7.9175 0.0049728 ** 
## married:service      1   0.67719 260.73 -1956.4  3.2363 0.0722658 .  
## married:educ         1   0.17610 261.23 -1954.0  0.8400 0.3595842    
## married:aboveavg     1   0.41753 260.98 -1955.2  1.9934 0.1582390    
## married:belowavg     1   0.03982 261.36 -1953.4  0.1898 0.6631173    
## married:I(exper^2)   1   1.37303 260.03 -1959.8  6.5792 0.0104337 *  
## service:educ         1   0.04883 261.35 -1953.4  0.2328 0.6295549    
## service:aboveavg     1   0.06057 261.34 -1953.5  0.2888 0.5911112    
## service:belowavg     1   0.00144 261.40 -1953.2  0.0069 0.9339333    
## service:I(exper^2)   1   0.63868 260.76 -1956.2  3.0518 0.0808946 .  
## educ:aboveavg        1   0.04114 261.36 -1953.4  0.1961 0.6579475    
## educ:belowavg        1   0.01961 261.38 -1953.3  0.0935 0.7598312    
## educ:I(exper^2)      1   0.06610 261.34 -1953.5  0.3152 0.5746347    
## aboveavg:belowavg    0   0.00000 261.40 -1955.2                      
## aboveavg:I(exper^2)  1   0.00002 261.40 -1953.2  0.0001 0.9921716    
## belowavg:I(exper^2)  1   0.05738 261.34 -1953.4  0.2736 0.6010267    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Визуальный анализ остатков не показывает никаких существенных особенностей:

Модель 3

Удалим из модели 2 незначимые признаки и добавим межфакторное взаимодействие пола и опыта работы.

Её остатки:

Критерий p
Шапиро-Уилка 3.007582410^{-7}
Уилкоксона 0.9765989
Бройша-Пагана 3.05815510^{-6}

ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:

## 
## Call:
## lm(formula = logwage ~ exper + exper * female + female + union + 
##     service + educ + aboveavg + belowavg + I(exper^2), data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.48289 -0.28482  0.01858  0.27788  1.85005 
## 
## Coefficients:
##                Estimate Std. Error    t value   Pr(>|t|) Adjusted p-value
## (Intercept)   3.126e-01  8.225e-02  3.801e+00  1.511e-04               NA
## exper         4.681e-02  4.533e-03  1.033e+01  4.750e-24            0.000
## female       -2.607e-01  5.024e-02 -5.189e+00  2.467e-07            0.000
## union         1.719e-01  2.941e-02  5.846e+00  6.431e-09            0.000
## service      -1.607e-01  3.170e-02 -5.071e+00  4.555e-07            0.000
## educ          7.764e-02  5.356e-03  1.450e+01  3.950e-44            0.000
## aboveavg     -3.691e-03  2.944e-02 -1.254e-01  9.002e-01            1.000
## belowavg     -1.337e-01  4.061e-02 -3.292e+00  1.021e-03            0.006
## I(exper^2)   -7.065e-04  9.682e-05 -7.297e+00  5.227e-13            0.000
## exper:female -8.935e-03  2.542e-03 -3.515e+00  4.551e-04            0.010
## 
## Residual standard error: 0.4561 on 1249 degrees of freedom
## Multiple R-squared:  0.4064, Adjusted R-squared:  0.4021 
## F-statistic:    95 on 9 and 1249 DF,  p-value: < 2.2e-16

Значимы все признаки, кроме индикатора привлекательности выше среднего.

Визуальный анализ остатков не показывает никаких существенных особенностей:

Критерий Давидсона-Маккинона показывает, что модель 3 лучше модели 2:

## J test
## 
## Model 1: logwage ~ exper + union + goodhlth + black + female + married + 
##     service + educ + aboveavg + belowavg + I(exper^2)
## Model 2: logwage ~ exper + exper * female + female + union + service + 
##     educ + aboveavg + belowavg + I(exper^2)
##                 Estimate Std. Error t value  Pr(>|t|)    
## M1 + fitted(M2)  0.97487    0.28785  3.3867 0.0007294 ***
## M2 + fitted(M1)  0.88205    0.45395  1.9431 0.0522315 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Модель 4

Попробуем оставить в модели 2 цвет кожи и семейное положение, чтобы добавить их взаимодействия с полом. Как и в модели 3, добавим взаимодействие пола с опытом работы, а состояние здоровья удалим.

Её остатки:

Критерий p
Шапиро-Уилка 1.793777410^{-6}
Уилкоксона 0.9327109
Бройша-Пагана 2.834525210^{-5}

ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:

## 
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female + 
##     female + black + female * black + married + female * married + 
##     union + service + educ + aboveavg + belowavg, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.50715 -0.28320  0.01463  0.27576  1.88275 
## 
## Coefficients:
##                  Estimate Std. Error    t value   Pr(>|t|)
## (Intercept)     3.146e-01  8.558e-02  3.676e+00  2.470e-04
## exper           4.475e-02  4.689e-03  9.544e+00  7.004e-21
## I(exper^2)     -6.736e-04  9.846e-05 -6.842e+00  1.225e-11
## female         -1.954e-01  5.984e-02 -3.266e+00  1.120e-03
## black          -2.508e-01  7.256e-02 -3.456e+00  5.672e-04
## married         7.031e-02  4.232e-02  1.661e+00  9.690e-02
## union           1.782e-01  2.923e-02  6.095e+00  1.453e-09
## service        -1.603e-01  3.148e-02 -5.093e+00  4.074e-07
## educ            7.573e-02  5.370e-03  1.410e+01  5.285e-42
## aboveavg       -1.059e-03  2.927e-02 -3.619e-02  9.711e-01
## belowavg       -1.353e-01  4.042e-02 -3.348e+00  8.382e-04
## exper:female   -8.188e-03  2.579e-03 -3.175e+00  1.534e-03
## female:black    3.295e-01  9.981e-02  3.301e+00  9.899e-04
## female:married -1.638e-01  6.050e-02 -2.707e+00  6.885e-03
##                Adjusted p-value
## (Intercept)                  NA
## exper                     0.000
## I(exper^2)                0.000
## female                    0.010
## black                     0.006
## married                   0.612
## union                     0.000
## service                   0.000
## educ                      0.000
## aboveavg                  1.000
## belowavg                  0.007
## exper:female              0.037
## female:black              0.008
## female:married            0.052
## 
## Residual standard error: 0.4527 on 1245 degrees of freedom
## Multiple R-squared:  0.4172, Adjusted R-squared:  0.4111 
## F-statistic: 68.56 on 13 and 1245 DF,  p-value: < 2.2e-16

Визуальный анализ остатков:

Сравним с моделью 3 по критерию Вальда с дисперсиями Уайта:

## Wald test
## 
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + female * married + union + service + 
##     educ + aboveavg + belowavg
## Model 2: logwage ~ exper + exper * female + female + union + service + 
##     educ + aboveavg + belowavg + I(exper^2)
##   Res.Df Df      F    Pr(>F)    
## 1   1245                        
## 2   1249 -4 6.1382 6.848e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Получается значимо лучше.

Посмотрим, не нужно ли добавить ещё какие-то взаимодействия:

## Single term additions
## 
## Model:
## logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + female * married + union + service + 
##     educ + aboveavg + belowavg
##                     Df Sum of Sq    RSS     AIC F value  Pr(>F)  
## <none>                           255.10 -1981.9                  
## exper:I(exper^2)     1   0.57827 254.52 -1982.8  2.8264 0.09298 .
## exper:black          1   0.04175 255.05 -1980.1  0.2036 0.65187  
## exper:married        1   0.17797 254.92 -1980.8  0.8685 0.35156  
## exper:union          1   0.72073 254.38 -1983.5  3.5247 0.06070 .
## exper:service        1   0.46050 254.63 -1982.2  2.2497 0.13389  
## exper:educ           1   0.00551 255.09 -1979.9  0.0269 0.86986  
## exper:aboveavg       1   0.04164 255.05 -1980.1  0.2031 0.65230  
## exper:belowavg       1   0.00288 255.09 -1979.9  0.0141 0.90561  
## I(exper^2):female    1   0.11380 254.98 -1980.5  0.5552 0.45634  
## I(exper^2):black     1   0.22088 254.88 -1981.0  1.0781 0.29933  
## I(exper^2):married   1   0.29017 254.81 -1981.3  1.4166 0.23418  
## I(exper^2):union     1   0.88193 254.21 -1984.3  4.3157 0.03797 *
## I(exper^2):service   1   0.32610 254.77 -1981.5  1.5923 0.20724  
## I(exper^2):educ      1   0.14825 254.95 -1980.6  0.7234 0.39520  
## I(exper^2):aboveavg  1   0.00573 255.09 -1979.9  0.0279 0.86729  
## I(exper^2):belowavg  1   0.00062 255.09 -1979.9  0.0030 0.95602  
## female:union         1   0.54916 254.55 -1982.6  2.6838 0.10163  
## female:service       1   0.74277 254.35 -1983.6  3.6328 0.05688 .
## female:educ          1   0.56298 254.53 -1982.7  2.7515 0.09741 .
## female:aboveavg      1   0.12989 254.97 -1980.5  0.6338 0.42613  
## female:belowavg      1   0.01115 255.09 -1980.0  0.0544 0.81562  
## black:married        1   0.02461 255.07 -1980.0  0.1200 0.72908  
## black:union          1   0.28846 254.81 -1981.3  1.4083 0.23557  
## black:service        1   0.00020 255.10 -1979.9  0.0010 0.97492  
## black:educ           1   0.30599 254.79 -1981.4  1.4940 0.22183  
## black:aboveavg       1   0.00194 255.09 -1979.9  0.0094 0.92259  
## black:belowavg       1   0.47605 254.62 -1982.3  2.3258 0.12750  
## married:union        1   0.00588 255.09 -1979.9  0.0287 0.86560  
## married:service      1   0.17674 254.92 -1980.8  0.8625 0.35322  
## married:educ         1   0.22997 254.87 -1981.0  1.1225 0.28960  
## married:aboveavg     1   0.25378 254.84 -1981.2  1.2388 0.26591  
## married:belowavg     1   0.02162 255.07 -1980.0  0.1055 0.74543  
## union:service        1   0.00125 255.09 -1979.9  0.0061 0.93782  
## union:educ           1   0.10673 254.99 -1980.4  0.5207 0.47069  
## union:aboveavg       1   0.03412 255.06 -1980.1  0.1664 0.68340  
## union:belowavg       1   0.09441 255.00 -1980.4  0.4606 0.49747  
## service:educ         1   0.09434 255.00 -1980.4  0.4602 0.49765  
## service:aboveavg     1   0.04436 255.05 -1980.1  0.2164 0.64191  
## service:belowavg     1   0.00307 255.09 -1979.9  0.0150 0.90264  
## educ:aboveavg        1   0.03902 255.06 -1980.1  0.1903 0.66273  
## educ:belowavg        1   0.05888 255.04 -1980.2  0.2872 0.59211  
## aboveavg:belowavg    0   0.00000 255.10 -1981.9                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Взаимодействия квадрата опыта сложно интерпретировать, поэтому остановимся на полученной модели.

Модель 5

В предыдущей модели семейное положение и его взаимодействия незначимы по отдельности; посмотрим, можно ли удалить их оба (критерий Вальда с дисперсиями Уайта):

## 
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female + 
##     female + black + female * black + union + service + educ + 
##     aboveavg + belowavg, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.49535 -0.29037  0.02078  0.27333  1.83344 
## 
## Coefficients:
##                Estimate Std. Error    t value   Pr(>|t|) Adjusted p-value
## (Intercept)   3.493e-01  8.306e-02  4.205e+00  2.796e-05               NA
## exper         4.602e-02  4.520e-03  1.018e+01  1.913e-23            0.000
## I(exper^2)   -6.860e-04  9.659e-05 -7.102e+00  2.064e-12            0.000
## female       -2.824e-01  5.043e-02 -5.599e+00  2.656e-08            0.000
## black        -2.677e-01  7.205e-02 -3.715e+00  2.120e-04            0.001
## union         1.780e-01  2.929e-02  6.076e+00  1.630e-09            0.000
## service      -1.587e-01  3.154e-02 -5.030e+00  5.617e-07            0.000
## educ          7.597e-02  5.376e-03  1.413e+01  3.552e-42            0.000
## aboveavg      8.770e-04  2.931e-02  2.993e-02  9.761e-01            1.000
## belowavg     -1.406e-01  4.046e-02 -3.475e+00  5.279e-04            0.004
## exper:female -9.096e-03  2.531e-03 -3.594e+00  3.379e-04            0.008
## female:black  3.600e-01  9.930e-02  3.626e+00  3.000e-04            0.002
## 
## Residual standard error: 0.4536 on 1247 degrees of freedom
## Multiple R-squared:  0.4137, Adjusted R-squared:  0.4086 
## F-statistic: 80.01 on 11 and 1247 DF,  p-value: < 2.2e-16
## Wald test
## 
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + female * married + union + service + 
##     educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + union + service + educ + aboveavg + belowavg
##   Res.Df Df      F  Pr(>F)  
## 1   1245                    
## 2   1247 -2 4.0709 0.01729 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Модель получается значимо хуже. Удалим тогда только взаимодействие пола и семейного положения.

## 
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female + 
##     female + black + female * black + married + union + service + 
##     educ + aboveavg + belowavg, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.49482 -0.28920  0.01955  0.27611  1.83283 
## 
## Coefficients:
##                Estimate Std. Error    t value   Pr(>|t|) Adjusted p-value
## (Intercept)   3.537e-01  8.457e-02  4.182e+00  3.092e-05               NA
## exper         4.634e-02  4.664e-03  9.937e+00  1.922e-22            0.000
## I(exper^2)   -6.913e-04  9.850e-05 -7.018e+00  3.675e-12            0.000
## female       -2.829e-01  5.049e-02 -5.603e+00  2.588e-08            0.000
## black        -2.696e-01  7.241e-02 -3.724e+00  2.052e-04            0.001
## married      -8.572e-03  3.077e-02 -2.786e-01  7.806e-01            1.000
## union         1.780e-01  2.930e-02  6.076e+00  1.635e-09            0.000
## service      -1.586e-01  3.156e-02 -5.026e+00  5.736e-07            0.000
## educ          7.591e-02  5.383e-03  1.410e+01  5.315e-42            0.000
## aboveavg      5.962e-04  2.933e-02  2.032e-02  9.838e-01            1.000
## belowavg     -1.407e-01  4.048e-02 -3.477e+00  5.240e-04            0.004
## exper:female -9.199e-03  2.558e-03 -3.596e+00  3.362e-04            0.008
## female:black  3.608e-01  9.938e-02  3.631e+00  2.940e-04            0.002
## 
## Residual standard error: 0.4538 on 1246 degrees of freedom
## Multiple R-squared:  0.4138, Adjusted R-squared:  0.4081 
## F-statistic: 73.29 on 12 and 1246 DF,  p-value: < 2.2e-16
## Wald test
## 
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + female * married + union + service + 
##     educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + union + service + educ + aboveavg + 
##     belowavg
##   Res.Df Df      F   Pr(>F)   
## 1   1245                      
## 2   1246 -1 8.0259 0.004686 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Снова становится значимо хуже. Кроме того, модифицированный коэффициент детерминации убывает. Вернёмся к модели 4.

Расстояние Кука

Посмотрим на влиятельные наблюдения: Удалим наблюдения с расстоянием Кука больше 0.015 (порог выбран визуально) и перенастроим модель 4.

Сравним коэффициенты новой модели и модели 4:

##                     All data Filtered data
## (Intercept)     0.3145914333   0.265356323
## exper           0.0447480234   0.047405332
## I(exper^2)     -0.0006736416  -0.000728978
## female         -0.1954470198  -0.148434764
## black          -0.2507531071  -0.212021582
## married         0.0703086359   0.081285229
## union           0.1781585550   0.180545883
## service        -0.1603376207  -0.172108720
## educ            0.0757252568   0.077043794
## aboveavg       -0.0010591769  -0.004225053
## belowavg       -0.1353339064  -0.131002707
## exper:female   -0.0081883370  -0.010172001
## female:black    0.3294837001   0.243986129
## female:married -0.1637757690  -0.179333594

некоторые коэффициенты существенно изменились, следовательно, удаление влиятельных наблюдений имело смысл.

Остатки новой модели:

Критерий p
Шапиро-Уилка 3.269494410^{-5}
Уилкоксона 0.9937559
Бройша-Пагана 1.282303410^{-4}

ненормальны и гетероскедастичны. Результаты проверки гипотез о значимости всех признаков с поправкой на множественность и дисперсиями Уайта:

## 
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female + 
##     female + black + female * black + married + female * married + 
##     union + service + educ + aboveavg + belowavg, data = data2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.51348 -0.27989  0.01137  0.27416  1.81393 
## 
## Coefficients:
##                  Estimate Std. Error    t value   Pr(>|t|)
## (Intercept)     2.654e-01  8.507e-02  3.119e+00  1.854e-03
## exper           4.741e-02  4.669e-03  1.015e+01  2.524e-23
## I(exper^2)     -7.290e-04  9.812e-05 -7.429e+00  2.023e-13
## female         -1.484e-01  5.963e-02 -2.489e+00  1.294e-02
## black          -2.120e-01  7.234e-02 -2.931e+00  3.442e-03
## married         8.129e-02  4.185e-02  1.942e+00  5.233e-02
## union           1.805e-01  2.886e-02  6.257e+00  5.393e-10
## service        -1.721e-01  3.115e-02 -5.526e+00  3.999e-08
## educ            7.704e-02  5.323e-03  1.447e+01  5.570e-44
## aboveavg       -4.225e-03  2.894e-02 -1.460e-01  8.839e-01
## belowavg       -1.310e-01  3.988e-02 -3.285e+00  1.047e-03
## exper:female   -1.017e-02  2.591e-03 -3.925e+00  9.136e-05
## female:black    2.440e-01  9.994e-02  2.441e+00  1.477e-02
## female:married -1.793e-01  5.979e-02 -2.999e+00  2.760e-03
##                Adjusted p-value
## (Intercept)                  NA
## exper                     0.000
## I(exper^2)                0.000
## female                    0.071
## black                     0.021
## married                   0.342
## union                     0.000
## service                   0.000
## educ                      0.000
## aboveavg                  1.000
## belowavg                  0.009
## exper:female              0.001
## female:black              0.067
## female:married            0.017
## 
## Residual standard error: 0.4463 on 1241 degrees of freedom
## Multiple R-squared:  0.4284, Adjusted R-squared:  0.4224 
## F-statistic: 71.54 on 13 and 1241 DF,  p-value: < 2.2e-16

Визуальный анализ остатков:

Проверим, нельзя ли теперь удалить взаимодействие пола с цветом кожи или семейным положением:

## 
## Call:
## lm(formula = logwage ~ exper + I(exper^2) + exper * female + 
##     female + black + female * married + married + union + service + 
##     educ + aboveavg + belowavg, data = data2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.51107 -0.28687  0.01251  0.27307  1.81841 
## 
## Coefficients:
##                  Estimate Std. Error    t value   Pr(>|t|)
## (Intercept)     2.490e-01  8.497e-02  2.931e+00  3.445e-03
## exper           4.759e-02  4.677e-03  1.017e+01  2.078e-23
## I(exper^2)     -7.371e-04  9.826e-05 -7.501e+00  1.201e-13
## female         -1.207e-01  5.866e-02 -2.058e+00  3.976e-02
## black          -8.506e-02  5.039e-02 -1.688e+00  9.162e-02
## married         9.145e-02  4.173e-02  2.192e+00  2.859e-02
## union           1.774e-01  2.888e-02  6.143e+00  1.091e-09
## service        -1.728e-01  3.121e-02 -5.536e+00  3.782e-08
## educ            7.739e-02  5.332e-03  1.451e+01  3.305e-44
## aboveavg       -7.912e-03  2.896e-02 -2.732e-01  7.847e-01
## belowavg       -1.282e-01  3.994e-02 -3.210e+00  1.360e-03
## exper:female   -1.003e-02  2.596e-03 -3.863e+00  1.177e-04
## female:married -1.965e-01  5.950e-02 -3.303e+00  9.850e-04
##                Adjusted p-value
## (Intercept)                  NA
## exper                     0.000
## I(exper^2)                0.000
## female                    0.225
## black                     0.502
## married                   0.175
## union                     0.000
## service                   0.000
## educ                      0.000
## aboveavg                  1.000
## belowavg                  0.011
## exper:female              0.001
## female:married            0.005
## 
## Residual standard error: 0.4472 on 1242 degrees of freedom
## Multiple R-squared:  0.4256, Adjusted R-squared:  0.4201 
## F-statistic:  76.7 on 12 and 1242 DF,  p-value: < 2.2e-16
## Wald test
## 
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + female * married + union + service + 
##     educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * married + married + union + service + educ + aboveavg + 
##     belowavg
##   Res.Df Df      F   Pr(>F)   
## 1   1241                      
## 2   1242 -1 7.5684 0.006026 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Wald test
## 
## Model 1: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * black + married + female * married + union + service + 
##     educ + aboveavg + belowavg
## Model 2: logwage ~ exper + I(exper^2) + exper * female + female + black + 
##     female * married + married + union + service + educ + aboveavg + 
##     belowavg
##   Res.Df Df      F   Pr(>F)   
## 1   1241                      
## 2   1242 -1 7.5684 0.006026 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Нельзя.

Результат

Итоговая модель (№6) построена по 1255 из 1260 исходных объектов и объясняет 43% вариации логарифма отклика:

При интересующих нас факторах привлекательности стоят следующие коэффициенты:

##     aboveavg     belowavg 
## -0.004225053 -0.131002707
##                2.5 %      97.5 %
## aboveavg -0.06099884  0.05254873
## belowavg -0.20923385 -0.05277157

Таким образом, с учётом дополнительных факторов представители генеральной совокупности, из которой взята выборка, получают на 13% меньше (доверительный интервал (5, 21)%, p=0.0010473), если их привлекательность ниже средней, и на 0.4% меньше (доверительный интервал (-5, 6), p=0.8839442), если их привлекательность выше средней.


Hamermesh D.S., Biddle J.E. (1994) Beauty and the Labor Market, American Economic Review, 84, 1174–1194.